사전확률 갱신을 수행하는 교차 엔트로피 계획법

황형주; 장영수; 박재영; 김기응; HyeongJoo Hwang; Youngsoo Jang; Jaeyoung Park; Kee-Eung Kim

연구문헌

국내 논문지

홈 > 연구문헌 > 국내 논문지 > 한국정보과학회 논문지 > 정보과학회논문지 (Journal of KIISE)

정보과학회논문지 (Journal of KIISE)

Current Result Document :

한글제목(Korean Title)	사전확률 갱신을 수행하는 교차 엔트로피 계획법
영문제목(English Title)	Cross-Entropy Planning with Prior Updates
저자(Author)	황형주 장영수 박재영 김기응 HyeongJoo Hwang Youngsoo Jang Jaeyoung Park Kee-Eung Kim
원문수록처(Citation)	VOL 47 NO. 01 PP. 0088 ~ 0094 (2020. 01)
한글내용 (Korean Abstract)	본 논문에서는 사전확률 갱신을 수행하는 교차 엔트로피 계획법에 관해 기술한다. 교차 엔트로피 계획법은 실시간 계획법(online planning)에서 많이 사용하는 방법론으로 가상환경으로부터 표본 (sample)을 추출하고 추출된 표본으로부터 평가된 가치를 기반으로 최적의 행동(action)을 선택한다. 기존 교차 엔트로피 계획법은 최적화 과정에서 이전에 얻어진 탐색결과를 활용하지 않고 매번 새롭게 탐색을 수행한다. 따라서 정해진 시간 내에 탐색을 수행해야 할 경우, 도달할 수 있는 성능이 제한되어 있다. 본 논문에서는 행동 차원에 대한 교차 엔트로피 계획법의 결과물을 활용하여 최적화 과정에서의 사전확률을 갱신하고, 이를 통해 점차 높은 성능을 보일 수 있는 방법론을 제안한다. 또한, 실험에서는 물리 기반 가상환경(OpenAI Gym)에서 교차 엔트로피 계획법과 비교를 통해 제안된 방법론을 평가한다.
영문내용 (English Abstract)	This paper introduces a method of cross-entropy planning which updates prior probability for planning optimization process. Cross-entropy planning is a popular method in online planning and involves the extraction of samples from a simulation environment and selection of optimal action based on the values of the extracted samples. The performance of the cross-entropy planning is limited due to involvement of optimization processes without usage of previous planning results. We propose a method that updates prior probabilities for the optimization process based on the action sequences acquired from the cross-entropy planning. The proposed method improves the performance of cross-entropy planning with progression of planning epoch. We evaluated the proposed method based on the comparison with the cross-entropy planning in a physical-based simulation (OpenAI Gym) environment
키워드(Keyword)	교차 엔트로피 계획법 실시간 계획법 개방형 루프 계획법 순차적 의사 결정 cross-entropy method online planning open-loop planning sequential decision making
파일첨부	PDF 다운로드